本文的目的是比较医学声学任务中不同可学习的前端。已经实施了一个框架,以将人类的呼吸道声音和心跳分为两类,即健康或受病理影响。在获得两个合适的数据集后,我们开始使用两个可学习的前端(叶子和nnaudio)对声音进行分类,以及一个不可学习的基线前端,即mel-Filterbanks。然后,计算出的功能将被馈送到两种不同的CNN模型中,即VGG16和EfficityNet。前端根据参数,计算资源和有效性的数量进行了仔细的基准测试。这项工作表明了神经音频分类系统中可学习前端的整合如何提高性能,尤其是在医学声学领域。但是,此类框架的使用使所需的数据数量更大。因此,如果可用于培训的数据量足够大以帮助特征学习过程,则它们很有用。
translated by 谷歌翻译
本文提出了一种基于机器学习的方法,旨在提醒患者可能呼吸道疾病。各种类型的病理可能会影响呼吸系统,可能导致严重疾病,在某些情况下死亡。通常,有效的预防实践被视为改善患者健康状况的主要参与者。提出的方法致力于实现一种易于使用的工具,以自动诊断呼吸道疾病。具体而言,该方法利用变异自动编码器体系结构允许使用有限的复杂性和相对较小的数据集的培训管道。重要的是,它的精度为57%,这与现有的强烈监督方法一致。
translated by 谷歌翻译
在最先进的心理学研究中,我们注意到,用现有的自动音乐转录(AMT)方法转录的钢琴表演不能成功地重新合成,而不会影响表演的艺术内容。这是由于1)不同乐器使用的MIDI参数之间的不同映射,以及2)音乐家适应周围声学环境的方式。为了面对这个问题,我们提出了一种方法来构建特定于声学的AMT系统,该系统能够模拟音乐家对传达其解释的适应性的建模。具体而言,我们在模块化体系结构中量身定制的虚拟仪器模型,该模型将音频记录和相对对齐的音乐得分作为输入,并输出每个音符的声学特定速度。我们测试不同的模型形状,并表明所提出的方法通常优于通常的AMT管道,该管道不考虑仪器和声学环境的特殊性。有趣的是,这种方法可以简单地扩展,因为仅需要轻微的努力来训练模型来推断其他钢琴参数,例如踩踏。
translated by 谷歌翻译
在为城市声音分类构建深度神经网络之后,这项工作侧重于辅助驾驶员遭受听力损失的敏感应用。因此,清晰的病因证明和解释模型预测包括强的要求。为此,我们使用了两个不同的音频信号表示,即MEL和常数Q谱图,而深度神经网络所做的决定是通过层明智的相关性传播来解释的。同时,在两个特征集中分配高相关性的频率内容,表示非常辨别的信息表征本发明的分类任务。总的来说,我们为理解深层城市声音分类提供了解释的AI框架。
translated by 谷歌翻译
We present RAVEn, a self-supervised multi-modal approach to jointly learn visual and auditory speech representations. Our pre-training objective involves encoding masked inputs, and then predicting contextualised targets generated by slowly-evolving momentum encoders. Driven by the inherent differences between video and audio, our design is asymmetric w.r.t. the two modalities' pretext tasks: Whereas the auditory stream predicts both the visual and auditory targets, the visual one predicts only the auditory targets. We observe strong results in low- and high-resource labelled data settings when fine-tuning the visual and auditory encoders resulting from a single pre-training stage, in which the encoders are jointly trained. Notably, RAVEn surpasses all self-supervised methods on visual speech recognition (VSR) on LRS3, and combining RAVEn with self-training using only 30 hours of labelled data even outperforms a recent semi-supervised method trained on 90,000 hours of non-public data. At the same time, we achieve state-of-the-art results in the LRS3 low-resource setting for auditory speech recognition (as well as for VSR). Our findings point to the viability of learning powerful speech representations entirely from raw video and audio, i.e., without relying on handcrafted features. Code and models will be made public.
translated by 谷歌翻译
Recognizing a word shortly after it is spoken is an important requirement for automatic speech recognition (ASR) systems in real-world scenarios. As a result, a large body of work on streaming audio-only ASR models has been presented in the literature. However, streaming audio-visual automatic speech recognition (AV-ASR) has received little attention in earlier works. In this work, we propose a streaming AV-ASR system based on a hybrid connectionist temporal classification (CTC)/attention neural network architecture. The audio and the visual encoder neural networks are both based on the conformer architecture, which is made streamable using chunk-wise self-attention (CSA) and causal convolution. Streaming recognition with a decoder neural network is realized by using the triggered attention technique, which performs time-synchronous decoding with joint CTC/attention scoring. For frame-level ASR criteria, such as CTC, a synchronized response from the audio and visual encoders is critical for a joint AV decision making process. In this work, we propose a novel alignment regularization technique that promotes synchronization of the audio and visual encoder, which in turn results in better word error rates (WERs) at all SNR levels for streaming and offline AV-ASR models. The proposed AV-ASR model achieves WERs of 2.0% and 2.6% on the Lip Reading Sentences 3 (LRS3) dataset in an offline and online setup, respectively, which both present state-of-the-art results when no external training data are used.
translated by 谷歌翻译
最近,在一系列独立作品中提出了几种培训策略和时间模型,用于隔离单词唇读。但是,尚未探索结合最佳策略和调查每个策略的影响的潜力。在本文中,我们系统地研究了最先进的数据增强方法,时间模型和其他培训策略的性能,例如自我验证和使用单词边界指标。我们的结果表明,时间掩盖(TM)是最重要的增强,其次是混合和密集连接的时间卷积网络(DC-TCN)是隔离单词唇读的最佳时间模型。使用自我验证和单词边界指标也是有益的,但程度较小。上述所有方法的组合导致分类精度为93.4%,这比LRW数据集的当前最新性能的绝对提高了4.6%。通过预先培训其他数据集,可以将性能进一步提高到94.1%。对各种培训策略的错误分析表明,绩效通过提高难以认可词的分类准确性来提高。
translated by 谷歌翻译
在这项工作中,我们为点击率(CTR)预测引入了一个增量学习框架,并证明了其对Taboola大规模推荐服务的有效性。我们的方法可以通过从先前部署的模型中进行热烈启动并仅对“新鲜”数据进行微调来快速捕捉新兴趋势。过去的知识是通过教师范式维护的,教师充当蒸馏技术,减轻灾难性的遗忘现象。我们的增量学习框架可以显着更快地训练和部署周期(X12加速)。我们证明,每毫米(RPM)在多个交通段中的收入一致,新引入的物品的CTR大幅增加。
translated by 谷歌翻译
手动相互作用的研究需要为高维多手指模型产生可行的掌握姿势,这通常依赖于分析抓取的合成,从而产生脆弱且不自然的结果。本文介绍了Grasp'd,这是一种与已知模型和视觉输入的可区分接触模拟的掌握方法。我们使用基于梯度的方法作为基于采样的GRASP合成的替代方法,该方法在没有简化假设的情况下失败,例如预先指定的接触位置和本本特征。这样的假设限制了掌握发现,尤其是排除了高接触功率掌握。相比之下,我们基于模拟的方法允许即使对于具有高度自由度的抓地力形态,也可以稳定,高效,物理逼真,高接触抓紧合成。我们确定并解决了对基于梯度的优化进行掌握模拟的挑战,例如非平滑对象表面几何形状,接触稀疏性和坚固的优化景观。 GRASP-D与人类和机器人手模型的分析掌握合成相比,并且结果抓紧超过4倍,超过4倍,从而导致较高的GRASP稳定性。视频和代码可在https://graspd-eccv22.github.io/上获得。
translated by 谷歌翻译
哮喘是呼吸系统的常见慢性疾病,导致严重的残疾和社会负担。它影响了全球超过5亿人,2011年在美国产生的成本超过560亿美元。管理哮喘涉及控制症状,预防加重和维持肺功能。改善哮喘控制会影响患者的日常生活,并与降低患者的风险降低和肺功能障碍,降低了哮喘护理的成本和与生产率降低相关的间接成本。了解肺系统的复杂动力学以及肺对疾病,损伤和治疗的反应是哮喘治疗的发展。呼吸系统的计算模型试图提供一个理论框架,以了解结构与功能之间的相互作用。他们的应用可以通过特定于患者的药物方法来改善肺部医学,以优化鉴于个性化的几何形状和个性化通风模式,同时引入了一种最大化药物输送的患者技术,从而优化了分娩。在这一点上,本论文中解决的三倍目标变得突出。第一部分是指对肺病理生理学的理解以及哮喘的力学以及随后的肺部疾病的理解。第二部分是指促进个性化医学以提高交付和有效性的工具的设计和实施。最后,第三部分是指疾病的自我管理,这意味着医务人员和患者可以使用工具和方法,使第一方可以轻松地跟踪病情和第二方的过程,即患者轻松轻松自我管理,它减轻了卫生系统的重大负担。
translated by 谷歌翻译